FILTER MODE ACTIVE

#модели вознаграждения

Найдено записей: 3

#модели вознаграждения07.07.2025

SynPref-40M и Skywork-Reward-V2: Революция в масштабируемом согласовании человека и ИИ для передовых моделей вознаграждения

SynPref-40M представляет огромный набор данных предпочтений, который позволил создать серию моделей Skywork-Reward-V2 с передовыми результатами в согласовании человека и ИИ по нескольким бенчмаркам.

#модели вознаграждения04.07.2025

Crome: Каузальная система Google DeepMind для надёжного обучения моделей вознаграждения в выравнивании LLM

Google DeepMind и партнёры представили Crome — каузальную систему, которая повышает устойчивость моделей вознаграждения при выравнивании больших языковых моделей, используя контрфактическую аугментацию данных.

#модели вознаграждения16.05.2025

DanceGRPO: Революция в визуальной генерации с объединённым обучением с подкреплением

DanceGRPO представляет собой объединённую систему обучения с подкреплением для улучшения визуальной генерации в различных парадигмах, значительно повышая качество и соответствие человеческим предпочтениям.